Microprocessor architects are increasingly resorting to domain-specific customization in the quest for high-performance and energy-efficiency. As the systems grow in complexity, fine-tuning architectural parameters across multiple sub-systems (e.g., datapath, memory blocks in different hierarchies, interconnects, compiler optimization, etc.) quickly results in a combinatorial explosion of design space. This makes domain-specific customization an extremely challenging task. Prior work explores using reinforcement learning (RL) and other optimization methods to automatically explore the large design space. However, these methods have traditionally relied on single-agent RL/ML formulations. It is unclear how scalable single-agent formulations are as we increase the complexity of the design space (e.g., full stack System-on-Chip design). Therefore, we propose an alternative formulation that leverages Multi-Agent RL (MARL) to tackle this problem. The key idea behind using MARL is an observation that parameters across different sub-systems are more or less independent, thus allowing a decentralized role assigned to each agent. We test this hypothesis by designing domain-specific DRAM memory controller for several workload traces. Our evaluation shows that the MARL formulation consistently outperforms single-agent RL baselines such as Proximal Policy Optimization and Soft Actor-Critic over different target objectives such as low power and latency. To this end, this work opens the pathway for new and promising research in MARL solutions for hardware architecture search.
translated by 谷歌翻译
我们研究了在室内路线上捕获的360度图像中的自动生成导航指令。现有的发电机遭受较差的视觉接地,导致它们依赖语言前沿和幻觉对象。我们的Marky-MT5系统通过专注于视觉地标来解决这一点;它包括第一阶段地标检测器和第二级发生器 - 多峰,多语言,多任务编码器 - 解码器。要培训它,我们在房间顶部(RXR)数据集的顶部引导地标注释。使用文本解析器,来自RXR的姿势迹线的弱监督,以及在1.8B图像上培训的多语言图像文本编码器,我们识别1.1M英语,印地语和泰卢语的地标描述并将其接地为Panoramas的特定区域。在房间到室内,人类途径在Marky-MT5的指示之后获得了71%的成功率(SR),只害羞他们的75%SR在人类指令之后 - 以及与其他发电机的SR高于SRS。对RXR更长的评估,不同的路径上的三种语言获得61-64%的SRS。在新颖环境中生成这种高质量的导航指令是迈向对话导航工具的一步,可以促进对指令跟随代理的大规模培训。
translated by 谷歌翻译
在手术室(OR)中,活动通常与其他典型的工作环境不同。特别是,外科医生经常受到多种心理组织的约束,可能会对他们的健康和表现造成负面影响。这通常归因于相关的认知工作量(CWL)的增加,该工作量是由于处理意外和重复性任务以及大量信息以及潜在风险的认知超载而导致的。在本文中,建议在多种四个不同的手术任务中对CWL的多模式识别提出了两种机器学习方法。首先,使用基于转移学习概念的模型来确定外科医生是否经历任何CWL。其次,卷积神经网络(CNN)使用此信息来识别与每个手术任务相关的不同类型的CWL。建议的多模式方法考虑来自脑电图(EEG),功能近红外光谱(FNIRS)和瞳孔眼直径的相邻信号。信号的串联允许在时间(时间)和通道位置(空间)方面进行复杂的相关性。数据收集是由多种感应的AI环境来执行的,用于在Harms Lab开发的手术任务$ \&$角色优化平台(Maestro)。为了比较拟议方法的性能,已经实施了许多最先进的机器学习技术。测试表明,所提出的模型的精度为93%。
translated by 谷歌翻译
如今,使用微创手术(MIS)进行了更多的手术程序。这是由于其许多好处,例如最小的术后问题,较少的出血,较小的疤痕和快速的康复。但是,MIS的视野,小手术室和对操作场景的间接查看可能导致手术工具发生冲突并可能损害人体器官或组织。因此,通过使用内窥镜视频饲料实时检测和监视手术仪器,可以大大减少MIS问题,并且可以提高手术程序的准确性和成功率。在本文中,研究,分析和评估了对Yolov5对象检测器的一系列改进,以增强手术仪器的检测。在此过程中,我们进行了基于性能的消融研究,探索了改变Yolov5模型的骨干,颈部和锚固结构元素的影响,并注释了独特的内窥镜数据集。此外,我们将消融研究的有效性与其他四个SOTA对象探测器(Yolov7,Yolor,Scaled-Yolov4和Yolov3-SPP)进行了比较。除了Yolov3-SPP(在MAP中具有98.3%的模型性能和相似的推理速度)外,我们的所有基准模型(包括原始的Yolov5)在使用新的内窥镜数据集的实验中超过了我们的顶级精制模型。
translated by 谷歌翻译
倾斜的图像是与地球表面的倾斜角度拍摄的航拍照片。这些图像中向量和其他地理空间数据的投影取决于摄像机参数,地理空间实体的位置,表面地形,遮挡和可见性。本文提出了一种可靠且可扩展的算法,以使用斜图像检测矢量数据的不一致。该算法使用图像描述符来编码图像中地理空间实体的局部外观。这些图像描述符结合了颜色,像素强度梯度,纹理和可检测的滤镜响应。对向量机分类器进行了训练,以检测与基础矢量数据,数字高程图,建筑模型和摄像头参数不一致的图像描述符。在本文中,我们在可见的路段和非道路数据上训练分类器。此后,训练有素的分类器检测到矢量的不一致,其中包括封闭和未对准的道路细分市场。一致的道路段验证了我们的向量,DEM和3-D模型数据的这些区域,而段不一致指出了错误。我们进一步表明,搜索与未对齐道路不一致的可见路段一致的描述符会产生与图像中像素一致的所需道路对齐。
translated by 谷歌翻译
在自主驾驶系统中,感知 - 来自环境的特征和物体的识别 - 至关重要。在自主赛车中,高速和小幅度的距离需要快速准确的检测系统。在比赛期间,天气可能会突然变化,导致感知的显着降解,导致操作效果无效。为了改善恶劣天气的检测,基于深度学习的模型通常需要在这种条件下捕获的广泛数据集 - 这是一种繁琐,费力和昂贵的过程。然而,最新的Conscangan架构的发展允许在多种天气条件下合成高度现实的场景。为此,我们介绍了一种在自主赛车中使用合成的不利条件数据集(使用Cyclegan产生)来提高五个最先进的探测器的性能,平均为42.7和4.4地图百分比点分别存在夜间条件和液滴。此外,我们对五个对象探测器进行了比较分析 - 识别探测器的最佳配对和在挑战条件下自主赛车中使用的培训数据。
translated by 谷歌翻译
作为自治车辆和自主赛车的竞争程度,所以需要更快,更准确的探测器。虽然我们的裸眼能够几乎立即提取上下文信息,但即使从远处地,图像分辨率和计算资源限制也使检测到较小的对象(即占用输入图像中小像素区域的对象)机器的真正具有挑战性的任务和一个广泛的研究领域。本研究探讨了如何修改流行的yolov5对象检测器以改善其在检测较小物体时的性能,具有自主赛车的特定应用。为实现这一目标,我们调查如何更换模型的某些结构元素(以及它们的连接和其他参数)可以影响性能和推理时间。在这样做时,我们提出了一系列模型,在不同的尺度上,我们命名为“YOLO-Z”,当时在50%iou的较小物体时,在地图上显示出高达6.9%的提高,以仅仅a与原始yolov5相比,推理时间增加3ms。我们的目标是为未来的研究提供调整流行检测器的可能性,例如YOLOV5以解决特定任务,并提供关于具体变化如何影响小对象检测的洞察。应用于自动车辆的更广泛背景的这种发现可以增加这些系统可用的上下文信息的量。
translated by 谷歌翻译
深奥学习算法和复杂数据集越来越表征现代临床决策支持系统(CDSS)。因此,当在实践中面临艰难的诊断或治疗决策时,临床医生不能轻易或快速地审查CDSS推荐。过度信任或欠信任频繁。先前的研究通过解释DST数据输入和算法机制,探索了支持这些评估。本文探讨了一种不同的方法:提供来自生物医学文学的恰当相关的科学证据。我们展示了一个概念验证系统,临床证据引擎,展示这种方法的技术和设计可行性,跨三个域(心血管疾病,自闭症,癌症)。利用临床生物商,该系统可以基于长度临床问题有效识别临床试验报告(例如,在需要动脉导管的重症监护室中的成年患者中的导尿管感染的风险,如果用POOMIDONE碘 - 酒精治疗)。这种能力使系统能够识别与诊断/治疗假设相关的临床试验 - 临床医生或CDSS。此外,临床证据发动机可以识别临床试验摘要的关键部分,包括患者人群(例如,需要动脉导管的重症监护室的成年患者),干预(POOMIDONE碘 - 醇)和结果(导管感染的风险)。这种能力开辟了使临床医生能够实现1)迅速确定临床试验和临床问题之间的匹配,以及2)了解审判的结果和背景而无需广泛阅读。我们通过说明系统的两个示例使用场景来展示这一潜力。我们讨论了设计DST解释的想法,不像DST或算法那样具体,而是作为域名无话学决策支持基础设施。
translated by 谷歌翻译
Self-attention techniques, and specifically Transformers, are dominating the field of text processing and are becoming increasingly popular in computer vision classification tasks. In order to visualize the parts of the image that led to a certain classification, existing methods either rely on the obtained attention maps or employ heuristic propagation along the attention graph. In this work, we propose a novel way to compute relevancy for Transformer networks. The method assigns local relevance based on the Deep Taylor Decomposition principle and then propagates these relevancy scores through the layers. This propagation involves attention layers and skip connections, which challenge existing methods. Our solution is based on a specific formulation that is shown to maintain the total relevancy across layers. We benchmark our method on very recent visual Transformer networks, as well as on a text classification problem, and demonstrate a clear advantage over the existing explainability methods. Our code is available at: https://github.com/hilachefer/Transformer-Explainability.
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译